Archivage du contenu éphémère du Web à l ’ aide des flux Web *
نویسندگان
چکیده
Cette proposition de démonstration concerne une application d’archivage du contenu du Web à l’aide des flux Web. A partir de la spécification d’un domaine par l’utilisateur, des services spécialisés sont utilisés pour acquérir des flux pertinents. Pour chacun de ces flux, on exploite les indices sémantiques attachés à un objet dynamique pour extraire, à partir de la page Web associée, les données qui correspondent à la description. On ajoute à cet objet des méta-données supplémentaires et l’estampille temporelle, on extrait le template de la page, et on garde ces composants indépendamment pour être prêts à répondre à des requêtes temporelles et sémantiques et, à la demande, reconstruire la page Web référencée par le flux. Les méthodes pour détecter le changement de la page Web sont également utiles dans le cadre d’un crawl incrémental des versions du même objet dynamique.
منابع مشابه
Crawl intelligent et adaptatif d'applications web pour l'archivage du web
RÉSUMÉ. Les sites web sont par nature dynamiques, leur contenu et leur structure changeant au fil du temps; de nombreuses pages sur le web sont produites par des systèmes de gestion de contenu (CMS). Les outils actuellement utilisés par les archivistes du web pour préserver le contenu du web collectent et stockent de manière aveugle les pages web, en ne tenant pas compte du CMS sur lequel le si...
متن کاملTraitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining
Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...
متن کاملG-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour la construction d'une ontologie dans la notation OWL
Résumé : Le Web Ontology Language (OWL) standardisé par le W3C a pour objectif d’offrir un langage de conception d’ontologies pour le web sémantique. L’ingénierie d’une ontologie est une activité complexe nécessitant une habilité peu accessible à des experts de contenu. En revanche, pour modéliser du contenu métier, la modélisation graphique semi-formelle est une technique souvent employée pour...
متن کاملWeb sémantique pour la mémoire d'expériences d'une communauté scientifique : le projet MEAT
Résumé. Cet article décrit le projet MEAT (Mémoire d'Expériences pour l'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillant dans le domaine des puces à ADN, pour l'interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour construire une mémoire d'expériences pour ce domaine. Notre approche, basée sur les technologi...
متن کاملWCUM pour l'analyse d'un site web
Résumé. Dans ce papier, nous proposons une approche WCUM (Web Content and Usage Mining) permettant de relier l’analyse du contenu d’un site Web à l’analyse de l’usage afin de mieux comprendre les comportements de navigation sur le site. L’apport de ce travail réside d’une part dans la proposition d’une approche reliant l’analyse du contenu à l’analyse de l’usage et d’autre part à l’extension de...
متن کامل